調變頻譜正規化法使用於強健語音辨識之研究 (Study of Modulation Spectrum Normalization Techniques for Robust Speech Recognition) [In Chinese]
نویسندگان
چکیده
The performance of an automatic speech recognition system is often degraded due to the embedded noise in the processed speech signal. A variety of techniques have been proposed to deal with this problem, and one category of these techniques aims to normalize the temporal statistics of the speech features, which is the main direction of our proposed new approaches here. In this thesis, we propose a series of noise robustness approaches, all of which attempt to normalize the modulation spectrum of speech features. They include equi-ripple temporal filtering (ERTF), least-squares spectrum fitting (LSSF) and magnitude spectrum interpolation (MSI). With these approaches, the mismatch between the modulation spectra for clean and noise-corrupted speech features is reduced, and thus the resulting new features are expected to be more noise-robust. Recognition experiments implemented on Aurora-2 digit database show that the three new approaches effectively improve the recognition accuracy under a wide range of noise-corrupted environment. Moreover, it is also shown that they can be successfully combined with some other noise robustness approaches, like CMVN and MVA, to achieve a more excellent recognition performance. 關鍵詞:語音辨識、調變頻譜正規化、強健性語音特徵參數 keyword: speech recognition, modulation spectrum, robust speech features 一、緒論 自動語音辨識系統(automatic speech recognition systems, ASR),藉由多年來各方學者的 研究發展,逐漸達到實際應用的階段,而為人類生活帶來更多方便與幫助,雖然還不能 達到一個完美的地步,但是這方面的技術仍一直不斷地進步當中。 自動化語音辨認仍有許多相當具有挑戰性的研究課題,由於語音的變異性太多,例 如每位語者說話的方式與口氣都不一樣、不同語言有不同的特性、語者當時說話的情 緒、語者所處的環境是否有其他雜訊干擾等,這些變異對於語音辨識效果都有影響。在 真實應用環境下,語音辨識系統所遇到的主要問題其中兩個,分別為: (一)語者不匹配(speaker mismatch) 語者不匹配的問題是因為說話者先天條件(如口腔形狀)與後天習慣(如說話腔調) 的差異所產生的變異性,因此當以特定語者所訓練出來的聲學模型來辨識不屬於此特定 語者的語音時,辨識效果常會明顯下降,而要克服這一類問題的方法,通常是使用所謂 的語者調適(speaker adaptation)技術。也就是將原本訓練出來的聲學模型調適成接近當 下語者之語音特性的模型[1],如此便可提高辨識率。 (二)環境不匹配(environment mismatch) 環境不匹配的問題是因為語音辨識系統訓練環境與我們實驗或應用時的環境不同 所致,其變異因子主要包含了加成性雜訊(additive noise),如車站四周的雜訊、嘈雜街 道的人聲或車聲等,及摺積性雜訊(convolutional noise),如不同的有線或無線電話線路 或麥克風所造成的通道效應等,語音辨識系統常會因這些雜訊的影響使辨識率降低。下 圖一為乾淨語音受雜訊干擾之示意圖。
منابع مشابه
強健性語音辨識中分頻段調變頻譜補償之研究 (A Study of Sub-band Modulation Spectrum Compensation for Robust Speech Recognition) [In Chinese]
雖然語音科技進步迅速,但自動語音辨識仍是一門值得繼續研究開發的課題。因為 目前多數的語音辨識系統應用於不受干擾的安靜環境,雖然能得到相當滿意的辨識效 果,但若將其應用於實際的環境中,語音訊號往往會因為環境雜訊的影響,導致辨識效 能有明顯地衰減,發展多年的強健性技術即是針對此項缺點作改進。 在諸多強健性技術中,有一類方法為對語音特徵作統計上的正規化,傳統上, 這些方法都是對全頻段的語音特徵時間序列做正規化處理,然而,在分析此類方法的效 能上,通常是以其調變頻譜的正規化程度作為效能的依據,因此,如果直接在語音特徵 之調變頻譜上作正規化,應亦可達到不錯的效果。另外,由於不同頻率的調變頻率成 份具有不相等的重要性,但是傳統之特徵時間序列正規化法相對忽略了此性質,基於這 些觀察,在本論文中,我們提出了一系列的分頻段調變頻譜統計正規化法,此類方法可 以分別正規化不同頻段的統計特性,進而提升語音特...
متن کامل最小變異數調變頻譜濾波器於強健性語音辨識之研究 (A Study of Minimum Variance Modulation Filter for Robust Speech Recognition) [In Chinese]
本論文所探討的是語音特徵強健性技術,藉此改善雜訊環境下語音辨識的效能。我們利 用原始最小變異數調變濾波器法設計的環境失真目標函數,應用至求取濾波器之最佳頻 率響應上,進而發展出兩種特徵時間序列濾波器求取演算法,分別為基於最小變異數準 則之最小平方頻譜擬合法 (MV-LSSF)及基於最小變異數準則之強度頻譜內插法 (MV-MSI)。在這兩種方法中,利用我們所求得的濾波器之最佳頻率響應取代原始最小 平方頻譜擬合法(LSSF)與強度頻譜內插法(MSI)中所使用的濾波器,來得到欲逼近的目 標功率頻譜密度。從 Aurora-2 連續數字資料庫的實驗結果證實,這兩種基於最小變異 數準之調變頻譜正規化法,在各種雜訊環境下都優於傳統的兩種調變頻譜正規化法,而 得到更佳的辨識精確度。與基礎實驗結果相比較,MV-LSSF 與MV-MSI 所達到之相對 錯誤降低率分別為在 55.41%與 51.20%,顯...
متن کامل進階式調變頻譜補償法於強健性語音辨識之研究 (Advanced Modulation Spectrum Compensation Techniques for Robust Speech Recognition) [In Chinese]
在各種環境強健性技術中,有一類技術為對語音特徵的調變頻譜作統計上的正規化, 而 在先前這一類技術的研究裡,若對分頻段的頻譜做正規化處理,相對於全頻帶正規化的 處理法有較好的強健性效能,但其中由於不等切的切割方式,將調變頻譜中低頻部份分 的比較細,導致低頻範圍的子頻段,會有頻譜點數不足的問題,影響到我們計算其頻譜 特徵統計值的精確度,因此這些方法應有改進的空間。基於此觀察,本論文提出一系列 重疊式分頻段調變頻譜統計正規化法,此類方法可以有效提升子頻段中用以計算統計值 的頻譜點數,提升統計值的精確度,進而改善分頻段統計正規化法的效能,可以使所得 特徵在環境強健性上的效能更為優越。 本論文採用國際通用的 AURORA-2 連續數字語料庫作一系列的語音辨識實驗,由實驗 結果可明確驗證,我們提出的重疊式分頻段方法比起傳統非重疊式分頻段的方法更能有 效地提升各種雜訊環境下的辨識精確率。此外,我們...
متن کامل雜訊環境下應用線性估測編碼於特徵時序列之強健性語音辨識 (Employing linear prediction coding in feature time sequences for robust speech recognition in noisy environments) [In Chinese]
近幾十年來,無數的學者先進對於此雜訊干擾問題提出了豐富眾多的演算法,略分成兩 大類別:強健性語音特徵參數表示法(robust speech feature representation)與語音模型調適 法(speech model adaptation),第一類別之方法主要目的在抽取不易受到外在環境干擾下 而失真的語音特徵參數,或從原始語音特徵中儘量削減雜訊造成的效應,比較知名的方 法有:倒頻譜平均值與變異數正規化法 (cepstral mean and variance normalization, CMVN)[1]、倒頻譜統計圖正規化法(cepstral histogram normalization, CHN)[2]、倒頻譜平 均值與變異數正規化結合自動回歸動態平均濾波器法(cepstral mean and variance normalization plus auto-r...
متن کامل併合式倒頻譜統計正規化技術於強健性語音辨識之研究 (A Study of Hybrid-based Cepstral Statistics Normalization Techniques for Robust Speech Recognition) [In Chinese]
Cepstral statistics normalization techniques have been shown to be very successful at improving the noise robustness of speech features. In this paper, we propose a hybrid-based scheme to achieve a more accurate estimate of the statistical information of features in these techniques. By properly integrating codebook and utterance/segment knowledge, the
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2008